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摘要 : 本文 在 分 析 Web of Science、Scopus 和 NSTL 联合 数据 加 工 系统 采用 的 文 
献 元 数据 规范 基础 上 ， 以 期 刊 论文 为 例 ， 实 现 三 者 数据 库 元 数据 的 映射 ， 并 对 元 
数据 的 描述 方式 和 特点 进行 了 比较 , 同时 结合 实践 , 提出 了 元 数据 映射 过 程 中 需 
要 注意 的 问题 ， 为 相关 系统 的 元 数据 建设 和 利用 第 三 方 数据 提供 参考 依据 。 
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1 引言 


国家 科技 图 书 文献 中 心 (NSTL)“ 十 三 五 ”发 展 规划 提出 ， 要 优化 国家 科技 
文献 资源 保障 体系 ， 拓 展 元 数据 资源 采集 方式 。 通 过 与 国内 外 出 版 商 、 相 关 信 息 
机 构 协 商 、 购 买 、 交 换 、 赠 与 、 缴 存 等 多 渠道 获取 第 三 方 元 数据 ， 是 拓展 建设 元 
数据 资源 的 方式 之 一 。 因 此 ， 需 要 在 NSTL 联合 数据 加 工 系统 采用 的 文献 资源 元 
数据 规范 基础 上 , 深入 分 析 其 它 来 源 数 据 的 类 型 特点 和 建设 需求 ， 建 立 健全 元 数 
据 规范 ， 以 便 有 效 地 集成 第 三 方 来 源 元 数据 。 

然而 ,不 同 的 文献 数据 库 ， 元 数据 规范 描述 的 内 容 和 方式 往往 存在 差异 ， 这 
影响 了 相互 间 的 数据 交互 和 共享 ， 也 对 集成 和 利用 其 它 数 据 库 资源 产生 障碍 。 第 
三 方 元 数据 格式 的 多 样 性 与 NSTL 加 工资 源 需求 接口 单一 性 之 间 的 冲突 , 使 得 第 
三 方 来 源 元 数据 与 NSTL 文献 资源 元 数据 之 间 的 互 操作 成 为 必然 。 明确 元 数据 的 
内 容 和 组 织 方式 , 制订 相关 规则 实现 第 三 方 来 源 与 NSTL 文献 资源 元 数据 的 映射 ， 
是 有 效 集成 和 利用 第 三 方 数据 库 数 据 的 可 操作 方式 之 一 。 

本 文 在 分 析 Web of Science( 以 下 简称 WOS ) 数据 库 !、Scopus 数据 库 ? 和 
NSTL 采用 的 文献 资源 加 工 规范 ?基础 上 ， 结 合 相关 实践 ， 以 期 刊 论文 为 例 ， 对 三 
者 的 元 数据 映射 内 容 、 映 射 效 果 、 元 数据 描述 方式 和 特点 进行 比较 ， 以 期 为 相关 
文献 信息 系统 的 元 数据 建设 和 利用 已 有 第 三 方 数据 库 资 源 提供 借鉴 。 


2 期 刊 论 文 元 数据 结构 


根据 DC 元 数据 设计 的 模块 化 原则 ， 并 结合 分 析 三 个 文献 数据 库 的 元 数据 
内 容 ， 期 刊 论文 元 数据 可 以 分 为 论文 元 数据 、 作 者 元 数据 、 作 者 机 构 元 数据 、 期 
刊 元 数据 、 会 议 元 数据 、 基 金 元 数据 、 参 考 文 献 元 数据 、 施 引文 献 元 数据 等 。 按 
照 实 体 分 析 法 , 期 刊 论文 实体 间 的 关系 如 图 1 所 示 , 一 篇 期 刊 论文 可 能 由 一 个 或 
多 个 作者 撰写 ， 一 个 作者 属于 一 个 或 多 个 机 构 ， 论 文 发 表 在 期 刊 上 ， 可 能 来 自 于 
某 个 会 议 ， 也 可 能 挂靠 茶 个 基金 ， 可 能 具有 1 篇 或 多 篇 参考 文献 ， 也 可 能 被 1 


篇 或 多 篇 文献 引用 等 。 


WOS、Scopus、NSTL 的 期 刊 论文 元 数据 类 型 如 表 1 所 示 , 可 以 看 出 , WOS、 
Scopus 对 8 类 元 数据 均 有 描述 ，NSTL 缺乏 对 会 议 、 基 金 和 施 引 文献 元 数据 的 描 
述 。 分析 原因 ， 一 是 ，WOS、Scopus 使 用 一 套 元 数据 Schema 描述 多 种 文献 类 型 
如 期 刊 论文 、 会 议论 文 、 图 书 、 专 利 等 ， 因 此 ， 如 果 期 刊 论 文中 涉及 到 会 议 、 基 
金 信息 , 会 出 现 相关 的 会 议 、 基 金 描 述 信 息 , NSTL 虽然 相同 含义 字段 元 素 通 用 ， 
但 以 文献 类 型 为 基础 划分 元 数据 Schema， 会 议 元 数据 出 现在 会 议论 文 Schema 
中 ; 二 是 ，NSTL 目前 还 没有 基金 数据 、 施 引文 献 数 据 的 描述 。 


表 1 WOS、Scopus、NSTL 的 期 刊 论 文 元 数据 


元 数据 类 型 | 论文 | 作者 | 作者 机 构 | 期 刊 | 会 议 | 基金 | 参考 文献 | 施 引 文献 
WOS V V V V V V V NW 
Scopus vy V V V V V NA V 
NSTL V V V V NW 


3 元 数据 映射 与 比较 


以 NSTL 期 刊 论 文 元 数据 〈 部 分 字段 是 必 备 (Required) 字 段 ， 以 及 表示) 为 
基础 ， 对 比 WOS、Scopus 在 论文 元 数据 、 作 者 /机 构 元 数据 、 期 刊 元 数据 、 参 考 
文献 元 数据 中 相同 字段 的 描述 内 容 和 方式 , 并 分 析 不 同文 献 数据 库 元 数据 描述 的 
特点 ， 以 期 取长补短 ， 更 好 地 对 文献 数据 进行 管理 。 


3.1 论文 元 数据 的 映射 比较 


NSTL 论文 描述 信息 是 期 刊 论文 描述 元 数据 规范 的 主体 部 分 ， 描 述 的 内 容 包 
括 论 文 题名 、 关 键 词 、 文 摘 和 分 类 信息 等 几 个 部 分 。WOS 论文 描述 信息 包括 论 
文 唯一 标识 UID、 题 名 、 文 献 类 型 信息 等 ， 起 页 、 止 页 、 总 页 数 在 期 刊 元 数据 中 
进行 描述 。Scopus 论文 描述 信息 包括 论文 题名 、 摘 要 、 文 献 类 型 等 信息 ， 主 题 
词 、 分 类 号 信息 在 增强 描述 集中 描述 , 起 页 、 止 页 、 总 页 数 在 期 刊 元 数据 中 描述 ， 
参考 文献 总 数 在 参考 文献 元 数据 中 描述 ， 论 文 唯一 标识 符 包 括 eid、pui、pii 等 。 
WOS、Scopus 与 NSTL 论文 元 数据 映射 如 表 2 所 示 。 


表 2 论文 元 数据 映射 


元 数据 标签 NSTL Schema WOS Schema Scopus Schema 

记录 号 paper_id(R) 

题名 title (R) title type=”item” titletext original="y" 
其 他 语种 题名 alternative title type=”foreign” titletext original="n" 

文摘 abstract abstract_text abstract original="y" 
其 它 语 种 文摘 abstract_alternative abstract original="n" 


关键 词 keyword keyword authorkeyword 
其 它 语种 关键 词 | keyword_alternative 
主题 词 subject_heading subject mainterm 
主题 词 表 thesaurus descriptors 
controlled="y" type=”” 
分 类 号 classification classification 
分 类 法 classification_scheme classifications type 一 ” 
正文 语种 language (R) language citation-language 
Xml:l]ang 一 ” 
其 它 语种 other_language 
起 页 start_page (R) page begin=” pagerange first=”” 
止 页 end_page page end=” pagerange last=”” 
总 页 数 total_page_number (R) | page page_count=”™ pagecount 
参考 文献 总 数 total_reference_ number | refs count=”” refcount=”” 
文献 号 paper_no 
本 地 唯一 标识 符 | local_doi (R) 
DOI doi identifier type="doi" | doi 
Value=” 
论文 类 型 paper_type 
资源 类 型 type(R) doctype citation-type code=”™ 


从 表 2 可 以 看 出 ， 在 22 个 NSTL 论文 元 数据 字段 中 ，WOS 有 11 个 字段 实 
现 映 射 ， 仅 占 12，Scopus 有 16 个 字段 完成 映射 。 在 未 映射 的 字段 中 还 包含 了 
必 备 字段 paper_ id 和 local doi， 这 样 的 话 ， 如 果 想 要 将 映射 后 的 数据 以 NSTL 
Schema 格式 输出 则 无 法 完成 ， 解 决 方法 可 以 将 必 备 字段 取 值 为 内 部 id 或 输出 为 
空 标签 。 

另外 ， 不 同 数据 库 相 同 字段 的 元 数据 枚 举 值 可 能 不 同 ， 例 如 NSTL 的 type、 
WOS 的 doctype、Scopus 的 citation-type， 虽 然 都 是 描述 文献 的 类 型 ， 但 三 者 的 
类 型 值 不 同 ， 需 要 进行 统一 或 指定 枚 举 值 映 射 方式 ; 同一 字段 的 元 素 取 值 类 型 可 
能 不 同 ,例如 NSTL 中 作者 顺序 author_sequence 取 值 类 型 为 bytez, WOS 中 seq_no 
取 值 类 型 为 positiveInteger， 需 要 调整 为 一 致 。 

从 表 2 中 还 可 以 看 出 ，NSTL 通过 元 素 方式 进行 描述 ，WOS、Scopus 多 用 
属性 进行 描述 ,例如 ,在 WOS Schema 中 ,描述 题名 (title) 元 素 的 属性 有 类 型 (type)， 
type 的 取 值 除了 论文 (item)、 其 它 语种 (foreign) 还 包含 出 版 物 (source)、iso 出 版 物 
缩写 (abbrev_ iso)、11 位 出 版 物 缩写 (abbrev_11) 等 ， 页 码 、 参 考 文献 数 等 都 采用 
了 属性 限定 元 素 的 方式 ， 更 好 地 将 描述 内 容 进 行 归并 。 


3.2 作者 /机 构 元 数据 的 映射 比较 


在 NSTL 中 ， 作 者 是 指 期 刊 论文 撰写 者 ， 在 WOS、Scopus 中 ， 论 文 作者 与 
出 版 者 、 图 表 制 作者 、 翻 译 者 等 共用 子 元 素 ， 因 此 需要 指定 父 元 素 author 才能 实 


现 准确 映射 ， 如 表 3 所 示 。 除 了 映射 元 素 外 ，WOS、Scopus 中 都 有 对 作者 姓 、 
名 、 通 讯 作 者 、 机 构 地 址 、 所 属国 家 和 城市 的 描述 ， 以 及 唯一 标识 符 的 描述 。 
WOS 中 作者 的 唯一 标识 符 包 括 ResearcherID、ORCID、dais_id 等 ，Scopus 中 作 
者 唯一 标识 符 为 AuthorIld， 机 构 唯 一 标识 符 为 afid， 均 是 可 选 属性 。 作 者 唯一 标 
识 符 对 唯一 识别 作者 具有 重要 作用 。 


表 3 作者 /机 构 元 数据 映射 


元 数据 标签 | NSTL Schema WOS Schema Scopus Schema 
作者 顺序 author_sequence | name seq no=” HL role="author” author seq=”” 
(R) 

作者 姓名 author_name(R) | name(role="author”) display_name author indexed-name 
其 它 形 式 作 | author_name alt | 有 full_name 时 对 照 author initials 

者 姓名 ernative name(role=”author”) wos_standard; 

无 full_name， 无 对 照 字 段 

作者 所 属 机 | affiliation address_name address_spec | affiliation 

构 organization organization 

其 它 形 式 机 | affiliation_altern 

构 ative 
作者 Email | email name(role=”author”) email_addr author e-address 
地 址 type="email" 


在 WOS 数据 库 中 ， 通 过 addr_no 建立 了 作者 和 机 构 之 间 的 一 一 对 应 关系 ， 
如 果 作 者 姓名 (name) 元 素 中 的 属性 addr_no 和 地 址 address_spec 元 素 中 的 属性 
addr_no 相同 ， 则 表示 此 机 构 是 该 作者 的 机 构 。 这 样 ， 不 管 作者 有 几 个 机 构 ， 都 
可 以 方便 地 实现 对 应 ， 避 人 免 重复 记录 。 

相 较 于 WOS 对 作者 和 机 构 信息 的 对 应 描述 , NSTL 和 Scopus 的 表达 方式 相 
对 繁琐 。NSTL 顺序 描述 作者 和 机 构 信 息 ， 如 果 文 献 作 者 隶属 于 同一 机 构 ， 则 会 
出 现 多 次 相同 机 构 的 描述 信息 ， 造 成 机 构 信息 的 见 余 。Scopus 以 机 构 为 基准 对 
作者 进行 划分 ， 同 一 机 构 的 作者 会 出 现在 同一 描述 记录 中 ,如 果 作 者 属于 多 个 机 
构 ， 则 会 在 多 个 描述 记录 中 出 现 该 作者 的 姓名 和 联系 方式 等 描述 信息 ,造成 作者 
言 息 的 见 余 。 


3.3 期 刊 元 数据 的 映射 比较 


期 刊 是 期 刊 论文 的 载体 ,在 NSTL 中 ， 期 刊 元 数据 包括 期 刊 描 述 信息 见 表 4 
中 的 前 14 个 元 素 和 卷 期 描述 信息 见 表 4 中 的 后 3 个 元 素 ， 在 WOS、Scopus 中 
卷 期 描述 信息 包含 在 期 刊 描述 信息 中 。 除 了 表 4 中 的 映射 元 素 ，WOS 包含 了 更 
详细 的 期 刊 名 称 的 缩写 信息 、 卷 期 出 版 日 期 信息 和 出 版 商 地 址 信息 ，Scopus 描 
述 了 期 刊 唯一 标识 符 srcid、 期 刊 名称 缩 号 、 文 献 来 源 网 址 、 期 刊 编辑 者 信息 等 。 


表 4 期 刊 元 数据 映射 


元 数据 标签 NSTL Schema WOS Schema Scopus Schema 

体 数据 源 编 | catalog_code(R) 

号 

订购 号 subscription_number 

ISSN issn identifier type=”issn” issn type="print" 

EISSN eissn identifier type=”eissn” issn 
type="electronic” 

CODEN coden codencode 

内 统一 书刊 | cn identifier type=”cn” 

号 

母体 文献 名 称 | host_title(R) title type=”Source” sourcetitle 

其 他 语种 母体 | host_title_alternative translated-sourcetitle 

文献 名 称 

语种 host_language(R) 

体 文献 分 类 | host_classification 

号 

出 版 地 publishing_place publisher address_spec city publisher affliation 
city 

出 版 者 publisher publisher name | publishername 

(role="publisher" )display_name 

起 始 start_year(R) 

终止 年 end_year 

卷 期 出 版 年 year(R) pub_info pubyear=”” publicationyear 
first=”” 

卷 信息 volume pub_info vol=”™ voliss volume=”™” 

期 信息 issue pub_info issue=”” part_no=”™ | voliss issue=”” Or 

Supplement=”” Special _issue=”” | supplement 


在 NSTL17 个 元 数据 字段 中 ，WOS 有 9 个 字段 实现 映射 ，Scopus 有 10 个 
字段 实现 映射 , 对 于 未 实现 映射 的 必 备 字段 处 理 方式 同 论文 元 数据 未 映射 的 必 备 


字段 。 在 NSTL 中 ， 只 有 期 信息 字段 ， 没 有 划分 


曾 刊 、 特 刊 、 分 期 字段 ， 但 指定 


了 这 些 字段 在 期 信息 字段 中 的 著录 规则 , 例如 有 期 号 , 但 该 期 又 分 为 若干 分 期 的 ， 


分 期 前 缀 照 录 ，+ 


可 根据 这 些 著录 规则 对 WOS、Scopus 相应 数据 进行 数据 抽取 合并 。 
3.4 参考 文献 元 数据 的 映射 比较 
在 NSTL 中 ， 参 考 文献 内 容 包括 引文 作者 、 题 名 、 出 处 、 卷 期 以 及 获取 访问 


路 径 


首 刊 、 专 刊 填写 在 期 号 后 ， 若 无 期 号 则 直接 填写 增刊 信息 等 。， 


等 。 参 考 文献 信息 可 以 让 用 户 从 作者 研究 脉络 角度 查找 到 一 组 相关 文献 ”。 


WOS 包含 了 参考 文献 中 的 作者 、 题 名 、 刊 名 、 卷 、 页 信息 ， 没 有 参考 文献 原始 
信息 字段 ，Scopus 既 包 含 了 原始 信息 字段 ， 也 包含 了 作者 、 题 名 等 拆 分 字段 。 


三 者 参考 文献 元 数据 映射 如 表 5 所 示 , 对 于 未 实现 映射 的 必 备 字段 处 理 方式 同 前 。 


表 5 参考 文献 元 数据 映射 
元 数据 标签 NSTL Schema WOS Schema Scopus Schema 
引文 类 型 citation_type(R) 
引文 原始 信息 | citation_orig_info(R) ref-fulltext 
引文 第 一 作者 | citation_authorl citedAuthor ref-authors author seq=”1” 
引文 第 二 作者 | citation_author2 ref-authors author seq=”2” 
引文 第 三 作者 | citation_author3 ref-authors author seq=”3” 
引文 题名 citation_title citedTitle ref-titletext 
引文 出 处 citation_sourcetitle cited Work ref-sourcetitle 
引文 出 版 年 citation_year reference year ref-publicationyear first=”” 
引文 卷 号 citation_volume reference volume | ref-volisspag voliss volume=” 
引文 期 号 citation_issue ref-volisspag voliss issue=”™ 
引文 页 citation_page reference page ref-volisspag pagerange first="" 

last="" 

引文 主编 citation_editor_in_chief 
引文 出 版 者 citation_publisher 
链接 地 址 citation_url 


在 WOS 中 ,通过 一 篇 论文 作为 参考 文献 的 次 数 可 以 得 到 此 论文 的 被 引 次 数 。 
原文 献 中 具有 唯一 标识 符 UID， 参 考 文献 也 包含 唯一 标识 符 ut， 如 果 UID 与 ut 
值 相同 , 则 表示 这 是 同一 篇 文献 , 具有 UID 的 文献 被 包含 ut 的 文献 引用 了 , UID 
与 多 少 个 ut 值 匹配 上 ， 就 表示 有 具有 此 UID 的 文献 被 引用 了 多 少 次 。 需 要 注意 的 
是 ， 文 献 的 UID 是 不 会 变 的 ， 但 参考 文献 的 ut 值 可 能 会 因为 施 引 文献 的 改动 而 
被 删除 或 被 替代 ， 此 外 有 些 参 考 文献 的 ut 值 无 法 获得 、 数 据 更 新 或 修改 等 都 可 
能 影响 文献 被 引 次 数 的 计算 。 


4 元 数据 映射 方式 的 优势 和 不 足 


对 于 同一 篇 期 刊 论文 , 不 同 的 文献 数据 库 , 信息 组 织 方式 和 内 容 揭示 方式 都 
存在 差异 ， 有 的 数据 库 描述 信息 更 加 详细 ， 元 数据 字段 更 加 齐全 ， 有 的 数据 库 描 
述 信 息 相 对 简略 , 元 数据 字段 也 相对 较 少 , 而 且 不 同 的 数据 库 元 数据 侧重 点 也 有 
所 不 同 。 在 不 同 数据 库 间 元 数据 较 难 实现 统一 的 情况 下 , 通过 元 数据 映射 的 方式 ， 
是 实现 数据 集成 管理 的 可 行 方式 。 对 于 不 同 的 数据 库 ， 元 数据 字段 映射 的 数量 越 
多 ， 外 部 来 源 数 据 库 的 数据 利用 越 充分 。 

通过 对 WOS、Scopus 与 NSTL 元 数据 的 映射 ， 可 以 看 出 ，WOS、Scopus 
与 NSTL 在 通用 字段 上 描述 相同 ， 能 够 进行 映射 ， 但 未 实现 全 部 字段 的 映射 ， 一 
定 程度 上 影响 了 加 工 数据 的 全 面 性 。 另 外 ，WOS、Scopus 对 作者 、 机 构 、 期 刊 
等 有 更 多 较为 详细 的 描述 字段 , 在 NSTL 中 没有 体现 ,这 些 数据 对 于 文献 资源 信 


息 的 揭示 更 为 细 颗 粒 化 , 通过 元 数据 映射 输出 的 方式 , 也 在 一 定 程度 上 造成 了 这 
些 外 部 数据 源 数据 的 失真 。 

此 外 ，WOS、Scopus 在 不 同 的 元 数据 描述 粒度 上 设置 了 多 种 唯一 标识 ， 例 
如 WOS 对 论文 (uid)、 作 者 (r_id)、 期 刊 卷 期 (ids) 等 有 唯一 标识 的 描述 ，Scopus 对 
论文 (eid)、 作 者 (auid)、 机 构 (afid)、 期 刊 (srcid) 等 有 唯一 标识 的 描述 。 在 NSTL 
Schema 中 添加 外 部 论文 唯一 标识 字段 ， 与 其 它 数 据 库 唯一 标识 进行 映射 ， 可 以 
唯一 识别 来 自 于 WOS 等 外 部 数据 库 的 论文 ， 添 加 外 部 作者 、 作 者 机 构 、 期 刊 等 
的 唯一 标识 还 可 以 对 这 些 数据 进行 唯一 识别 ， 区 分 自 加 工 数据 与 外 部 来 源 数据 。 


5 结语 


在 当前 不 同文 献 数 据 库 元 数据 描述 字段 不 尽 相 同 的 情况 下 , 如 果 相互 之 间 的 
元 数据 能 够 进行 映射 ， 对 实现 不 同 数据 库 之 间 数 据 的 交互 和 流转 具有 重要 意义 ， 
元 数据 字段 映射 数量 越 多 , 数据 越 能 得 到 充分 利用 。 本 文 以 NSTL 期 刊 论文 元 数 
据 为 基础 ， 完 成 了 WOS、Scopus 元 数据 与 NSTL 元 数据 的 映射 ， 分 析 了 三 者 元 
数据 描述 的 特点 ， 并 提出 元 数据 映射 过 程 中 需要 注意 的 问题 。NSTL 目前 已 将 购 
买 的 WOS 数据 装 入 准备 库 ， 陆 续 还 将 装 入 其 它 文献 数据 库 数据 ， 装 入 的 数据 根 
据 不 同 数 据 库 Schema 对 照 表 以 NSTL Schema 格式 输出 ,将 加 工人 员 从 繁琐 的 加 
工 工作 中 解脱 出 来 , 并 通过 利用 第 三 方 数 据 库 数 据 大 大 提升 了 NSTL 数据 加 工 速 
度 和 系统 的 自动 化 水 平 。 
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